你的浏览器版本过低,可能导致网站不能正常访问!为了您能正常使用网站功能,请使用这些浏览器。
chrome
Firefox

工具栏

「蔚小理」们,摸着特斯拉的石头过河

这两天我在美国加州体验了 FSD v12.3.6 的版本,也打了一台 Waymo 体验。
总的来说,在旧金山城区 Waymo 表现更好,而 FSD 在硅谷和高速表现极好,可以达到很高的分数,很多路况处理都很丝滑。我非常感慨 FSD 在数月里有很大的进步,我们也会向 FSD 学习他们优秀的功能点和用户体验部分,我相信 2025 年会是完全自动驾驶的 ChatGPT 时刻!

上周,何小鹏远赴北美。除了现场观看 NBA 决赛,参加投资趋势会议,还顺便亲自体验了特斯拉的 FSD v12 以及 Waymo(Alphabet 旗下无人驾驶出行服务商)的智驾表现。

何小鹏在美国体验特斯拉 FSD-图片来自微博@XP-何小鹏

马斯克曾在 4 月末进行了一次极速访华,本次访华的目的是讨论 FSD 在中国落地的可能性。

在其飞抵北京的同一日夜间,中国汽车工业协会、国家计算机网络应急技术处理协调中心发布《关于汽车数据处理 4 项安全要求检测情况通报(第一批)》,通报指出:

特斯拉上海超级工厂生产的车型符合规定要求,首批 6 家合规车企中特斯拉是唯一一家符合要求的外资车企。

成为首批合规的车企,这也意味着特斯拉有望各地陆续解除禁行禁停限制。而特斯拉中国官方的 FSD 购买页面描述,也从「稍后推出」变更为「即将推出」。

特斯拉 FSD 落地中国,正比任何时候都要接近成为现实。

Elon Musk-图片来自:AFP

远赴特斯拉大本营,亲自体验 FSD,何小鹏其一重要目的是:让 XNGP 与特斯拉的 FSD 隔空较量,看看两者孰强孰弱。

昨日,何小鹏在社交平台上放出了 FSD 体验的详情视频,主体的体验环节由三段导航里程(加州大道-斯坦福游客中心-谷歌游客中心-Mission Bay)组成。

电车实验室对视频内容要点做了较为完整的速记,以此回顾何小鹏对 FSD v12.3.6 的体验观点:

事实上,这已经不是国内新势力首次与 FSD 的「隔空对标」了。

余承东不止一次在发布会上透露,华为内部团队曾远赴美国旧金山等地,将华为的 ADS 与特斯拉的 FSD 进行了测试对比,而他认为华为的 ADS 智驾系统仍然拥有着全球最好的智驾能力。

如 2020 年特斯拉中国成为新能源市场「鲶鱼」的那个前夜,靴子即将落地的 FSD,也正成为国内车企争相对标的对象。

何小鹏为特斯拉 FSD 鼓掌-画面截自微博视频号@XP-何小鹏

端到端,AI 的新秩序

频频被提及对标,特斯拉在 FSD 上做到了什么。

去年 8 月,加州 Palo Alto,马斯克亲自完成了一次 FSD v12 的实车测试。他驾驶一台搭载 HW3.0 硬件的 Model S,从特斯拉工程总部出发,全程实况直播。

时长 45 分钟的测试中,这台运行 FSD v12 的 Model S 仅出现一次被迫接管情况,马斯克表示:FSD 会模仿人类的驾驶习惯,神经网络的可成长性也将大幅修窄智驾的犯错空间。

马斯克所说的神经网络,指的是端到端神经网络(End-to-End)。

何为 End-to-End 端到端架构?

在自动驾驶主流开发中,往往会将系统分为感知、规划、决策三个模块,先感知车辆环境,再规划行车路径,最终输出执行路径完成 AD 系统的运行闭环。

分拆的模块模仿了人类驾驶认知-分析-决策的步骤,模块间独立运行,提升模块间透明度的同时还降低了开发的难度。

支撑模块运行,是其背后大量的人工代码,三个模块的代码量也意味着智驾人员的冗余庞杂。而更关键的问题在于,人工代码始终是规则框架内的产物,在代码驱动下的自动驾驶无法处理长尾问题。

相比主流方案,特斯拉的端到端模型将感知、规划、决策的模块融合,形成新的神经网络。

马斯克透露:引入端到端神经网络后,特斯拉替代了 FSD 中 30 多万行的 C++ 代码,v12 初始版本的人工代码仅剩下 3000 行。通过神经网络,特斯拉车辆在直接输入传感器数据后,即可生成制动、加速及转向信号。

抛却「死板」的人工代码,特斯拉将大量包含人类驾驶的视频数据压缩,支持 FSD 的拟人化成长。

这也意味着:智能驾驶在完成 L2/3 的布局后,下一步的目标就将会是 L5 完全自动驾驶。

2 月中旬,特斯拉确认开始向非内部员工车主推送 FSD Beta v12.1.2。尽管推送覆盖面积仅为随机 0.5%-2% 符合条件的车主,但基于端到端神经网络的智能驾驶,走出了大规模应用的第一步。

E2E 神经网络的出现,松开了长尾事件对智驾开发的束缚,创造了更有想象力的技术上限。但在享用端到端大模型先进性的同时,车企还要有足够的体量支撑。

想要大模型准确、无误地修正驾驶逻辑,车企需要为此投喂大量高质量的驾驶数据,数据库首先就会受到挑战。

这对于特斯拉来说,并不是什么难题,从生产第一辆 Model S 开始到今年 4 月,特斯拉在全球范围总计生产超过 600 万辆新车,而多年来 FSD 驾驶的累计里程也已经超过了 10 亿英里(约 16.09 亿公里)。

7 个视角的模拟现实视频输出-内容截自 X(原推特)

除了真实的海量道路片段数据,马斯克透露:大约一年多前,特斯拉就已经能够利用精确的物理原理制作真实模拟世界的视频,而相比爆火的 Sora,特斯拉领先之处更是在于能够提供极为精准的物理现实,帮助 FSD 更好地理解现实世界。

从 2023 年集中爆发以来,AI 技术在可感知的 2 年内,就完成了智能驾驶新秩序的建立。

新势力众生相:调整、探索随行

AI 需要的海量高质量数据,车企的智驾竞争,也是交付体量的博弈。国内有能力、心力跟进端到端大模型第一梯队的新势力车企并不多,主要还是集中在了头部。

小鹏汽车算是率先在端到端大模型上拔得头筹的新势力车企。

今年 5 月,小鹏在 AI Day 上宣布国内首个量产端到端大模型上车。整个大模型包括神经网络 XNet、规控大模型XPlanner 以及大语言模型 XBrain,三者融合取代以往主流的「感知-规划-控制」的独立模块逻辑。

XNet 神经网络负责模拟人类视觉,将自动驾驶的感知能力提升 2 倍。何小鹏将 XPlanner 形容为是人类的「小脑」,在海量高质量数据训练下,XPlanner 能够帮助车辆的决策拟人化,减少顿挫、卡死、接管等等情况;而 AI 语言大模型 XBrain 提供大脑般的理解能力,帮助处理复杂、泛化的道路问题。

何小鹏表示:2024 年将投入 35 亿元用于智能研发,小鹏汽车的端到端大模型可以实现 2 天 1 迭代,18 个月就能够将智驾能力提升 30 倍。今年第三季度,小鹏预计将会实现「全国都能开,每条路都能开」的智驾体验。

延续何小鹏输出 FSD 体验报告的热度,昨夜小鹏汽车自动驾驶负责人李力耘,再次在微博上发声,他称:

目前行业所说的「全国都能开」,一种是白名单式,支队城市内部分白名单道路开放,或只招募部分满足一定门槛的白名单用户;另一种是黑名单式,出了部分特定场景不能开,其余全国所有路都能开。
小鹏 XNGP 就是后者之一,今年 7 月小鹏汽车也将全量推送「黑名单式」的全国都能开。

国内首款端到端首发,加速了行业入局布置的速度,而在新技术的探索中,也伴随着动荡的调整。

小鹏正为端到端技术的到来,更积极地调整智驾团队的架构,据 36 氪汽车报道消息称:小鹏汽车在智驾部门下成立了 AI 部门,针对性推进端到端等技术。

图片来自微博@XP-李力耘

几乎是在同一时期,理想汽车开启了新一轮的裁员计划,整体优化比例超过 18%。在其发布 2023 年财报详情中,理想汽车的员工总数超过 3.16 万人,在此优化占比下,预计超过 5600 人受到影响波及。

受到最大影响的是 HR 招聘部、销售运营部以及智能驾驶部门,其中,理想汽车的智能驾驶团队规模已经缩减至 1000 人以内。

智驾团队震荡精简,理想却没有停止对端到端大模型开发的推进。在 2024 年中国汽车重庆论坛上,李想谈起了自动驾驶,他称:

从去年 9 月开始,理想内部就在思考一个问题,并专门组建了一个专门用于自动驾驶的团队。

有个最简单的问题,人为什么开车不需要学习各种极端情况?如果不能解决这个问题,所有自动驾驶团队每天干的活就是通过人工去调试各种极端情况,这离自动驾驶的实现就会越来越遥远,人类开车与以往自动驾驶的开发方式有着根本的不同。
今天很多自动驾驶团队都在做「端到端」,完整的训练频段放进来,从输入直接到输出,相比过往的独立模块效率要高了不少,但挑战是难适应人类规则。
挑战有三:专做端到端数据训练的人才,真正高质量的数据以及足够多的算力。

以此为理念,理想团队对「双系统」技术路线有了更多探索。

理想团队从丹尼尔·卡尼曼的著作《思考,快与慢》中获得灵感,人类快思考占据了日常大脑 95%的工作,而逻辑严密、缓慢的思考工作则约为 5%。

人在驾驶时,近乎 95%的动作是肌肉记忆,精力花费不多,只有碰到紧急情况下才需要观察路面,思考给出下一步决策。

自动驾驶系统同样如此,端到端为快思考系统,足以处理正常的自动驾驶,而理想引入了视觉语言大模型 VLM 作为慢系统,增强兜底及泛化能力,负责解决复杂的长尾问题。

AD Max3.0 目前拥有 2 颗 OrinX 芯片,而理想的核心思路是,一颗 OrinX 用于端到端模型的布置,另一颗则被用在了 VLM 运行上,两颗 OrinX 芯片的算力用得刚刚好。

端到端模型能够理解,那 VLM 又为何物?

VLM 模型是 Vision-Language Model 的缩写,即视觉语言模型,这种模型既会看画面,也会用语言描述看到的事物,进而完成思考,这与人类处理紧急情况的逻辑是高度相似的。

端到端、VLM 两套系统上车,两套大模型同时开跑,端到端快系统的推理速度为 10Hz,而慢系统则为 1-2Hz,快慢系统并行运行,遇到复杂路况情况下,VLM 会进行更慢更深层次的逻辑推理,并及时为快系统传达信号,起到准确的介入干涉作用。

VLM 就好比是具备成长性端到端模型的实时老师,理想将此拆分为快慢系统的好处是:降低了自动驾驶技术的开发难度,加快了技术上车。

李想进一步表示,理想汽车将在今年的第三季度推送无图 NOA,并向测试用户推送基于 300 万 Clips 训练后的端到端+VLM 版本。

与此同时,李想还对更高级的自动驾驶做出了研判:有监督的 L3 级自动驾驶最快今年年底,最晚明年年初实现,3 年内可以实现无监督的 L4 自动驾驶。

步入调整的还有蔚来。

上周,晚点 Auto 曾发布独家消息称:蔚来的智驾研发部完成了架构调整,此前蔚来智能驾驶研发部份为感知、规控以及集成等部分。调整后,感知和规控团队将合并为大模型团队,继承团队重组为交付团队。

放弃过往「感知-决策-规控」的开发思路,调整架构的蔚来也正在推进端到端大模型的开发探索。

搭载端到端架构的 FSD v12,已经开始在北美大规模推送。在特斯拉 FSD 落地中国的微妙前夜,新势力们正摸着特斯拉的「石头」,抢滩国内端到端高阶智驾。

内容由作者提供,不代表易车立场

收藏

收藏成功 ! 去易车app查看收藏文章

猜你想看

+加载更多

活动推荐

广告
  • 奖 
  • 抢 
  • 奖 

相关车型

CopyRight © 2000-2023 BitAuto,All Rights Reserved. 版权所有 北京易车信息科技有限公司    购车咨询:4000-168-168 (周一至周日 9:00 – 21:00) 法定假日除外